1
통계적 가능도에서 볼록 프로그램으로
MATH008Lesson 7
00:00

통계적 추론은 다음과 같이 묻습니다: "이 데이터를 기반으로 가장 가능성 높은 기본 매개변수는 무엇입니까?" 이 슬라이드는 이 질문을 볼록 최적화. 가능도의 확률적 개념을 구조화된 프로그램으로 변환하여, 로그-볼록성 조건 하에서 최적 추정치를 찾는 것이 볼록 최적화 문제를 푸는 것과 동일하다는 것을 보여줍니다.

가능도 프레임워크

The 가능도 함수 는 고정된 관측 샘플 $y$에 대해 매개변수 $x$의 함수로 간주되는 확률 분포 $p_x(y)$입니다. $x$를 추정하기 위해 우리는 최대 가능도(ML) 추정: 관측 데이터가 가장 가능성이 높아지는 값을 선택하는 것입니다.

$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$

계산 효율성을 위해 우리는 로그-가능도 함수, $l(x) = \log p_x(y)$입니다. 로그 함수는 단조 증가 함수이므로 최댓값의 위치를 유지하면서 독립적인 관측에서 나온 곱셈을 다루기 쉬운 합으로 바꿉니다.

MLE 최적화 프로그램 (7.1)

우리는 추정을 수학적 프로그램으로 정식화합니다:

$$\begin{array}{ll} \text{최대화} & l(x) = \log p_x(y) \\ \text{제약조건} & x \in C \end{array}$$ (7.1)

이 프로그램은 볼록 최적화 문제 만약:

  • 로그-가능도 함수 $l$는 볼록성 모든 $y$ 값에 대해.
  • 가능 집합 $C$ (사전 정보)는 선형 등식 및 볼록 불등식 제약 조건으로 설명됩니다.

제약 조건과 사전 정보 통합

ML 추정은 물리적 또는 사전 제약 조건을 명시적으로 적용하기 위해 $x \notin C$인 경우 $p_x(y)$를 0으로 재정의해야 합니다. 최적화 공간에서는 이러한 제약 조건을 위반하는 매개변수 $x$에 대해 로그-가능도 함수가 $-\infty$로 할당되며, 최적화 도구가 이를 통과할 수 없는 장벽을 형성합니다.

🎯 핵심 원칙
최대 가능도에서 볼록 프로그램으로의 전환은 로그-밀도의 볼록성에 의존합니다. 노이즈나 분포가 로그-볼록이라면 통계적 추정은 전역적으로 해결 가능한 최적화 작업이 됩니다.